人类看不出这些“论文”是AI编的，我们刚刚试过了

科研圈科研圈 2022-04-14

图片来源：Pixabay

来源 The BMJ

编译戚译引

小测试：以下 5 篇论文标题中，3 个为 AI 生成，2 个来自于《英国医学杂志》（The BMJ）圣诞特辑发表过的论文。猜猜哪两个是真的？（答案在文末揭晓）

1、棒棒糖治疗喉咙痛的临床有效性：随机对照试验
The clinical effectiveness of lollipops as a treatment for sore throats: randomized controlled trial

2、在医院病房自由舞蹈的跨国研究：一项多中心、随机、对照、观察性试验
The multinational study of free-form dancing on hospital wards: a multicentre, randomized, controlled, observational trial

3、“扶手椅社会活动家”还坐着吗？政治派别和身体活动的横断面研究
Are “armchair socialists” still sitting? Cross sectional study of political affiliation and physical activity

4、如果我们停止擦屁股会发生什么？
What would happen if we stopped wiping our bottoms?

5、巧克力在医院病房的存活时间：秘密观察研究
The survival time of chocolates on hospital wards: covert observational study

你看过 AI 续写故事吗？今年，用 AI 续写的故事在网络上火了起来，为大家熟悉的名著带来意想不到的展开。一定有人会因此产生大胆的想法：能不能用 AI 写论文？

让 AI 写完全篇论文有些勉强，但 AI 生成的论文标题或许能带来一些全新的思路。最近，《英国医学杂志》（The BMJ）圣诞特辑就发表了这样一项研究。该研究论证，AI 生成的标题看起来与真实标题一样有吸引力，并且人工干预能够让 AI 生成更好的标题，这表明未来 AI 或许可以为研究提出假设或指出方向。

来自英国布里斯托尔皇家儿童医院（Bristol Royal Hospital for Children）的两位作者 Robin Marlow 和 Dora Wood 使用 The BMJ 圣诞特辑过去 10 年阅读量最大的 13 篇文章的标题，来提示人工智能算法模型 GPT-3 生成 57 个类似的标题。

接下来，两位作者分布根据科学价值、娱乐性和合理性对这些标题进行评分，选出 10 个得分最高的标题，和 10 个得分最低的标题。他们将这些标题和 10 篇真正的 The BMJ 圣诞特辑标题混合，随机邀请来自非洲、澳大利亚和欧洲的 25 名专业医生进行评分，评分项目包括是否有趣、是否可信等。

在这篇论文的网络页面上，The BMJ 也将一个互动性测试开放给了读者，请大家根据标题判断，哪些论文是 The BMJ 圣诞特辑真实发表过的，哪些是 AI 生成的。事实表明，有些 AI 编的“论文”，人类很难分辨出来，比如 79% 的人都认为《为什么男人在手术室里也不摘下帽子？一项横断面观察性研究》（Why do men keep their hats on in the operating theatre? A cross-sectional observational study）是一篇真实发表过的论文：

73% 的人认为《蔓越莓汁对下一代发育的影响：一项随机对照试验》（The effects of cranberry juice on the development ofthe next generation: a randomized controlled trial）曾在 The BMJ 圣诞特辑发表过，但这个标题也是 AI 生成的：

多达 80% 的人认为《“鳄鱼的眼泪”在澳大利亚鳄鱼袭击中的作用：一项前瞻性研究》（The role of"crocodile tears"in crocodile attacks in Australia:a prospective study）是一篇真实的论文，但对不起，这个标题也是 AI 生成的。

总而言之，该研究作者们从专业医生中收到的评分结果表明，人工智能生成的标题至少与真实标题一样令人愉快（64% 对 69%）和有吸引力（70% 对 68%），但真实标题被评为更可信（73% 对 48%）。此外，AI 生成的标题总体上被评为科学或教育价值低于真实标题（58% 对 39%），但是当人工调整 AI 输出时，这种差异就变得不显著了（58% 对 49%）。

研究作者表示，这一发现与之前的相关 AI 研究相吻合，表明将机器学习与人类监督相结合，能够产生最理想的结果。

在人工智能生成的标题中，可信度最高的是“棒棒糖治疗喉咙痛的临床有效性”，和“免费美味咖啡对急诊科等待时间的影响：一项观察性研究”。

被受调查者评为最有趣的标题是“用强力胶将你的乳头粘在一起，看看能否帮助你不再为工作中的勃起功能障碍而苦恼”。但研究作者指出，这说明人工智能无法“理解”研究的真实世界应用，以及标题内容会不会冒犯他人。

当然，The BMJ 圣诞特辑的内容本来就娱乐性很强，充满了古怪的标题。作者承认该研究存在一些局限性，但即使考虑到 The BMJ 圣诞特辑的特点，该研究仍然表明“人工智能有可能输出看起来可信的、有吸引力的内容，吸引潜在读者”。

同时，他们强调了人工干预的重要性。研究作者总结：“这一发现反映了人工智能在临床医学中的潜在用途，即为决策提供支持，而不是直接取代临床医生。”甚至在未来，在人工干预的帮助下，人工智能可以提出新的研究假设，和可能的研究方向。

猜一猜答案：3、5 来自于真实论文标题。还不过瘾？点击阅读原论文，继续挑战猜真假，看看你的准确率！

论文信息

Marlow R, Wood D. Ghost in the machine or monkey with a typewriter—generating titles for Christmas research articles in The BMJ using artificial intelligence: observational study BMJ 2021; 375 :e067732 doi:10.1136/bmj-2021-067732

https://www.bmj.com/content/375/bmj-2021-067732

参考来源：

https://www.eurekalert.org/news-releases/937731

本文来自微信公众号“科研圈”。如需转载，请在“科研圈”后台回复“转载”，或通过公众号菜单与我们取得联系。相关内容禁止用于营销宣传。

▽精彩回顾▽

点击在看，分享给更多的小伙伴

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

警察踢打校园欺凌者：当事人不愿返校，派出所拒收锦旗

疯传！广州地铁突发！警方介入

人类看不出这些“论文”是AI编的，我们刚刚试过了

您可能也对以下帖子感兴趣

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊​

薅广电羊毛！100元话费实付94.6元，还有电费96.9充100元！招团长~

警察踢打校园欺凌者：当事人不愿返校，派出所拒收锦旗

疯传！广州地铁突发！警方介入

生成图片，分享到微信朋友圈

人类看不出这些“论文”是AI编的，我们刚刚试过了

您可能也对以下帖子感兴趣

你手放哪呢，出生啊